컴퓨터 비전 CrossFormer (2021-07-31)

2025-12-13, G30DR

1. 서론: 시각적 인지의 본질과 트랜스포머의 진화

1.1 컴퓨터 비전의 패러다임 전환

지난 10여 년간 컴퓨터 비전(Computer Vision) 분야는 합성곱 신경망(Convolutional Neural Networks, CNN)이 주도해 온 시기를 지나, 2020년 비전 트랜스포머(Vision Transformer, ViT)의 등장과 함께 거대한 패러다임의 전환을 맞이했다. 자연어 처리(NLP) 분야에서 트랜스포머(Transformer)가 보여준 ‘장거리 의존성(Long-range Dependency)’ 모델링 능력은 이미지 데이터가 가진 픽셀 간의 복잡한 상관관계를 해석하는 데 있어 기존 CNN의 국소적 수용 영역(Local Receptive Field)이 갖는 한계를 뛰어넘는 가능성을 제시했다.1 그러나 이러한 전환기적 시점에서 초기 ViT 모델들은 이미지라는 데이터가 갖는 고유한 특성, 즉 ’스케일(Scale)’의 다양성을 충분히 반영하지 못한다는 구조적 한계에 직면하게 되었다.

1.2 스케일(Scale) 불변성과 다양성의 중요성

인간의 시각 시스템은 동일한 객체가 거리에 따라 다르게 보이는 현상, 즉 멀리 있는 객체는 작게, 가까이 있는 객체는 크게 보이는 스케일의 변화를 자연스럽게 인지하고 통합한다. CNN 아키텍처는 깊은 층으로 갈수록 공간 해상도를 줄이고 채널을 늘리는 피라미드 구조를 통해 이러한 다중 스케일 특징(Multi-scale Features)을 암묵적으로 학습해왔다. 반면, 바닐라 ViT는 이미지를 고정된 크기의 패치(Patch)로 분할하고, 이를 1차원 시퀀스로 변환하여 처리함으로써 스케일 간의 상호작용을 명시적으로 다루지 못했다.2 이는 특히 객체 탐지(Object Detection)나 세그멘테이션(Segmentation)과 같이 다양한 크기의 객체를 동시에 인식해야 하는 조밀한 예측(Dense Prediction) 태스크에서 성능 저하의 원인이 되었다.

1.3 CrossFormer의 제안 배경 및 연구 목적

이러한 배경 속에서 등장한 CrossFormer는 비전 트랜스포머가 간과해 온 ’스케일 간 상호작용(Cross-scale Interaction)’을 아키텍처의 핵심 설계 원칙으로 도입한 혁신적인 모델이다. 본 연구 보고서는 CrossFormer와 그 개선판인 **CrossFormer++**의 아키텍처를 심층적으로 분석하고, 이들이 제안하는 CEL(Cross-scale Embedding Layer), LSDA(Long Short Distance Attention), DPB(Dynamic Position Bias) 등의 핵심 모듈이 어떻게 기존 트랜스포머의 한계를 극복했는지 규명한다. 또한, 방대한 실험 결과와 경쟁 모델(Swin Transformer, PVT 등)과의 비교를 통해 CrossFormer가 제시하는 비전 트랜스포머의 새로운 표준을 평가하고자 한다.

2. 기존 비전 트랜스포머의 구조적 한계와 극복 과제

2.1 단일 스케일 임베딩의 맹점

대부분의 비전 트랜스포머는 입력 이미지를 $P \times P$ 크기의 패치로 나누어 임베딩한다. 예를 들어, $4 \times 4$ 패치를 사용할 경우, 모델은 초기 단계에서 $4 \times 4$ 영역 내의 정보만을 하나의 토큰으로 압축하게 된다. 이 과정에서 패치보다 작은 세밀한 특징(Fine-grained Features)이나 패치 경계에 걸쳐 있는 특징들은 손실되거나 왜곡될 가능성이 크다.2 PVT나 Swin Transformer와 같은 계층적 모델들이 단계별로 해상도를 줄이는 패치 병합(Patch Merging) 방식을 도입했지만, 이는 단순히 인접한 토큰들을 합치는 연산에 불과하여 진정한 의미의 다중 스케일 특징 융합이라기보다는 해상도 축소에 가깝다. 즉, ’서로 다른 스케일의 특징을 동시에 고려’하는 능력은 여전히 결여되어 있었다.2

2.2 로컬 어텐션의 고립 문제와 연산 효율성의 딜레마

트랜스포머의 핵심인 자기 어텐션(Self-Attention)은 입력 시퀀스 길이의 제곱( $N^2$ )에 비례하는 연산 복잡도를 가진다. 고해상도 이미지를 처리하기 위해 Swin Transformer는 이미지를 윈도우(Window)로 나누고 윈도우 내부에서만 어텐션을 수행하는 로컬 어텐션(Local Attention) 방식을 채택했다.4 이는 연산 효율성을 획기적으로 개선했으나, 윈도우 간의 정보 교류가 차단되는 ‘고립(Isolation)’ 문제를 야기했다. 이를 해결하기 위해 윈도우를 주기적으로 이동시키는 시프트(Shifted Window) 기법이 도입되었으나, 이는 간접적인 정보 전파 방식으로서 물리적으로 멀리 떨어진 픽셀 간의 관계를 파악하는 데에는 여러 레이어를 거쳐야 하는 비효율성이 존재한다.5

2.3 CrossFormer의 해결 전략

CrossFormer는 위에서 지적한 두 가지 근본적인 문제를 해결하기 위해 다음과 같은 전략을 수립했다.

입력 단계의 혁신: 단일 패치가 아닌, 다양한 크기의 커널을 사용하여 이미지를 중첩 샘플링함으로써 초기 임베딩 단계에서부터 다중 스케일 정보를 확보한다.
어텐션 메커니즘의 재설계: 어텐션을 근거리(Short Distance)와 원거리(Long Distance)로 분리하여, 연산 복잡도를 억제하면서도 이미지 전체를 아우르는 전역적 문맥(Global Context)을 직접적으로 포착한다.
위치 정보의 유연성 확보: 다양한 입력 해상도에 적응할 수 있는 동적 위치 편향 메커니즘을 도입하여 모델의 범용성을 극대화한다.

3. CrossFormer의 핵심 설계 철학 및 아키텍처 심층 분석

CrossFormer는 전체적으로 4단계(Stage)로 구성된 계층적 피라미드 구조를 따른다. 각 단계는 **CEL(Cross-scale Embedding Layer)**과 다수의 CrossFormer Block으로 구성되며, 블록 내부에는 LSDA와 DPB가 포함된다.2

3.1 CEL (Cross-scale Embedding Layer): 다중 스케일 정보의 융합

CEL은 CrossFormer가 기존 모델과 가장 차별화되는 지점이다. 기존의 패치 임베딩이 단일 해상도의 ’퍼즐 조각’을 맞추는 것이라면, CEL은 다양한 크기의 ’렌즈’로 이미지를 동시에 관찰하여 정보를 통합하는 과정이다.

3.1.1 다중 커널 샘플링 메커니즘

CEL은 입력 이미지나 특징 맵에 대해 서로 다른 크기의 커널 집합을 적용한다. 예를 들어, 첫 번째 단계(Stage-1)의 CEL은 $4 \times 4, 8 \times 8, 16 \times 16, 32 \times 32$ 의 네 가지 커널 크기를 사용한다.7 중요한 점은 이들 커널의 **스트라이드(Stride)**가 모두 $4 \times 4$ 로 동일하게 설정된다는 것이다.

스트라이드 일치의 의미: 커널 크기가 달라도 스트라이드가 같으면, 출력되는 특징 맵의 공간적 차원(Spatial Resolution)은 동일하다. 즉, $4 \times 4$ 커널로 추출한 미세 정보와 $32 \times 32$ 커널로 추출한 거시 정보가 공간적으로 완벽하게 정렬(Align)되어 하나의 픽셀 위치에서 결합될 수 있다.

3.1.2 차원 할당 규칙 (Dimension Allocation Rule)

단순히 여러 커널을 사용하면 연산량(FLOPs)과 파라미터 수가 급증할 위험이 있다. 합성곱 연산의 비용은 커널 크기의 제곱( $K^2$ )에 비례하기 때문이다. CrossFormer 연구진은 이를 상쇄하기 위해 “큰 커널에는 적은 채널을, 작은 커널에는 많은 채널을” 할당하는 역비례 규칙을 적용했다.7

예시 (총 차원 $D=96$ 일 때):
$4 \times 4$ 커널: 64차원 할당 (세밀한 정보는 고차원으로 표현)
$8 \times 8$ 커널: 16차원 할당
$16 \times 16$ 커널: 8차원 할당
$32 \times 32$ 커널: 8차원 할당 (개략적 문맥은 저차원으로 표현)

이러한 설계는 전체 연산 비용을 기존의 단일 $4 \times 4$ 패치 임베딩과 유사한 수준으로 유지하면서도, 모델이 다양한 스케일의 시각적 정보를 명시적으로 학습할 수 있도록 보장한다. 각 커널의 출력은 채널 축(Channel Axis)을 따라 연결(Concatenation)되고, 선형 투영(Linear Projection)을 통해 혼합되어 다음 블록으로 전달된다.8

3.2 LSDA (Long Short Distance Attention): 효율적인 전역-지역 연결

LSDA는 기존의 전역 어텐션이 갖는 과도한 연산 비용과 로컬 어텐션이 갖는 수용 영역의 제한을 동시에 해결하기 위해 고안되었다. LSDA는 어텐션 모듈을 **SDA(Short Distance Attention)**와 LDA(Long Distance Attention) 두 가지로 분리하고, 이를 번갈아 가며 수행한다.2

3.2.1 SDA (Short Distance Attention)

SDA는 Swin Transformer의 윈도우 어텐션과 유사하게 작동한다. 입력 특징 맵을 $G \times G$ 크기의 그룹으로 분할하고, 각 그룹 내부에서만 자기 어텐션을 수행한다.

역할: 인접 픽셀 간의 세밀한 관계를 학습하고, 국소적인 텍스처나 형상 정보를 강화한다.
구현: 일반적으로 $G=7$ 의 그룹 크기가 사용되며, 이는 초기 단계에서의 로컬 특징 추출에 최적화된 크기이다.8

3.2.2 LDA (Long Distance Attention)

LDA는 SDA가 놓치는 윈도우 간의 관계, 즉 전역적 정보를 포착한다. 이를 위해 LDA는 공간적으로 인접한 픽셀을 묶는 것이 아니라, 고정된 간격(Interval) $I$ 를 두고 떨어진 픽셀들을 그룹화한다.

샘플링 로직: 좌표 $(x, y)$ 에 있는 토큰은 $(x \pmod I, y \pmod I)$ 값이 동일한 토큰들과 하나의 그룹을 형성한다. 예를 들어 $I=2$ 라면, $(0,0), (0,2), (2,0), (2,2)$ 위치의 픽셀들이 묶이게 된다.4
효과: 이 방식은 이미지 전체에 흩어져 있는 정보들을 하나의 어텐션 그룹으로 모으는 효과를 낸다. 물리적 거리는 멀지만 의미적으로 연결될 수 있는 객체들(예: 화면 양끝에 있는 두 사람) 간의 상호작용을 단 한 번의 어텐션 연산으로 모델링할 수 있다. 이는 Dilated Convolution의 개념을 어텐션에 적용한 것으로 해석할 수 있다.10

3.2.3 SDA와 LDA의 시너지

CrossFormer 블록은 SDA와 LDA를 교차로 배치한다(SDA $\rightarrow$ LDA $\rightarrow$ SDA…). SDA 블록에서는 지역 정보를 강화하고, 이어진 LDA 블록에서는 강화된 지역 정보를 전역으로 전파한다. 이 과정이 반복되면서 모델은 이미지의 아주 작은 디테일(Small Scale)과 전체적인 구조(Large Scale)를 유기적으로 통합하게 된다.

3.3 DPB (Dynamic Position Bias): 가변 해상도를 위한 유연성

트랜스포머는 위치 정보를 본질적으로 알지 못하므로 위치 인코딩(Positional Encoding)이 필수적이다. 기존의 **RPB(Relative Position Bias)**는 학습 가능한 파라미터 테이블을 사용했는데, 이는 추론 시 입력 이미지 크기가 학습 때와 다르면 테이블을 보간(Interpolate)해야 하는 문제가 있었다. 이는 성능 저하의 원인이 될 수 있다.2

3.3.1 DPB의 작동 원리

CrossFormer는 이를 해결하기 위해 DPB(Dynamic Position Bias) 모듈을 도입했다. DPB는 고정된 테이블 대신, 상대 좌표 $(\Delta x, \Delta y)$ 를 입력으로 받아 해당 위치에 대한 바이어스 값을 출력하는 경량 MLP(Multi-Layer Perceptron)이다.

구조: LayerNorm $\rightarrow$ Linear $\rightarrow$ ReLU $\rightarrow$ Linear $\rightarrow$ ReLU $\rightarrow$ Linear의 3층 구조로 구성된다.4
장점: 이미지 크기가 변하더라도 상대 좌표값은 항상 계산 가능하므로, 별도의 보간 과정 없이 즉각적으로 정확한 위치 편향값을 생성할 수 있다. 또한, 연구진은 이론적 증명을 통해 이미지 크기가 고정된 상황에서는 DPB가 RPB와 수학적으로 동등함을 보였다.2 이는 DPB가 RPB의 일반화된 형태임을 의미한다.

4. CrossFormer++: 심층 학습의 안정성 확보와 성능 최적화

초기 CrossFormer 발표 이후, 연구진은 모델을 더욱 발전시킨 **CrossFormer++**를 제안했다. 이는 심층 신경망에서 발생하는 고질적인 문제들을 해결하기 위한 두 가지 새로운 모듈, PGS와 ACL을 포함한다.11

4.1 심층 모델의 문제점: 어텐션 붕괴와 진폭 폭발

연구진은 CrossFormer를 분석하던 중 두 가지 흥미로운 현상을 발견했다.

어텐션 맵의 변화: 모델의 얕은 층(Shallow Layers)에서는 어텐션이 국소적인 이웃 토큰에 집중되지만, 깊은 층(Deep Layers)으로 갈수록 모든 토큰에 균등하게 어텐션을 주는 경향이 나타난다. 즉, 깊은 층에서는 국소 정보보다는 전역 정보의 통합이 주된 역할을 한다.11
진폭 폭발(Amplitude Explosion): 층이 깊어질수록 특징 맵(Feature Map)의 활성화 값(Amplitude)이 기하급수적으로 증가하는 현상이 관찰되었다. 예를 들어, CrossFormer-B 모델에서 1번째 블록 대비 22번째 블록의 최대 출력값이 300배 이상 커지는 불안정성이 발견되었다. 이는 학습 수렴을 방해하고 일반화 성능을 저해한다.7

4.2 PGS (Progressive Group Size)

어텐션 맵의 변화에 대응하기 위해 CrossFormer++는 PGS(Progressive Group Size) 전략을 채택했다. 모든 단계에서 $G=7$ 로 고정된 그룹 크기를 사용하는 대신, 층이 깊어질수록 그룹 크기를 점진적으로 늘려나가는 방식이다.

전략: 초기 단계에서는 작은 그룹 크기로 지역적 특징 추출에 집중하고, 후반 단계에서는 그룹 크기를 키워 더 넓은 영역의 정보를 통합한다. 예를 들어, Stage 2에서는 $G=14$ , Stage 3에서는 $G=28$ 과 같이 확장할 수 있다.8 이는 모델의 자연스러운 학습 경향과 아키텍처를 일치시켜 효율성을 극대화한다.

4.3 ACL (Amplitude Cooling Layer)

진폭 폭발 문제를 해결하기 위해 도입된 **ACL(Amplitude Cooling Layer)**은 일종의 정규화 및 필터링 역할을 수행한다. ACL은 CEL과 구조적으로 유사하지만 더 가벼운 연산으로 구성되며, 특정 블록 뒤에 삽입되어 비대해진 활성화 값을 억제(Cooling)한다.11

효과: ACL 적용 후, 깊은 층에서의 활성화 값 분포가 안정화되었으며, 이는 결과적으로 모델의 학습 안정성을 높이고 최종 정확도 향상으로 이어졌다. ImageNet 실험에서 ACL 적용만으로도 Top-1 정확도가 0.4% 이상 향상되는 결과가 보고되었다.7

5. 구현 세부 사항 및 모델 변형의 해부

5.1 모델 라인업 및 하이퍼파라미터

CrossFormer는 연산 자원과 목표 성능에 따라 Tiny(T), Small(S), Base(B), Large(L)의 네 가지 변형으로 제공된다. 각 모델은 임베딩 차원( $D$ ), 헤드 수( $H$ ), 블록 수, 그룹 크기( $G$ ), 간격( $I$ ) 등을 달리하여 구성된다.4

모델 (Variant)	파라미터 수 (Params)	연산량 (FLOPs)	특징 및 타겟 용도
CrossFormer-T	27.8M	2.9G	모바일/엣지 디바이스용 경량 모델. ResNet-18/50 대체.
CrossFormer-S	30.7M	4.9G	성능과 효율성의 균형. PVT-Small, Swin-T 경쟁 모델.
CrossFormer-B	52.0M	9.2G	고성능 백본 표준. ResNet-101, Swin-B 경쟁 모델.
CrossFormer-L	92.0M	16.1G	대규모 데이터셋 및 최고 성능 요구 태스크용.
CrossFormer++-S	23.3M	4.9G	최적화를 통해 파라미터는 줄이고 성능은 높임.
CrossFormer++-B	52.0M	9.5G	PGS와 ACL 적용으로 SOTA급 성능 달성.
CrossFormer++-L	92.0M	16.6G	ImageNet Top-1 84.7% 달성.

주목할 점: CrossFormer++-S는 기존 CrossFormer-S 대비 파라미터 수가 약 24% 감소(30.7M $\rightarrow$ 23.3M)했음에도 불구하고 성능은 향상되었다. 이는 불필요한 연산을 제거하고 핵심적인 크로스 스케일 메커니즘을 강화한 결과로 해석된다.12

5.2 학습 프로토콜 (Training Protocol)

CrossFormer의 학습은 일반적인 ViT 학습 방식을 따른다.

최적화: AdamW 옵티마이저를 사용하며, 초기 학습률(Learning Rate)은 코사인 감쇠(Cosine Decay) 스케줄을 따른다.
데이터 증강: RandAugment, Mixup, CutMix 등의 강력한 데이터 증강 기법이 적용되어 과적합을 방지한다.
객체 탐지 설정: COCO 데이터셋 학습 시, RetinaNet과 Mask R-CNN 프레임워크 위에서 1x(12 에포크) 또는 3x(36 에포크) 스케줄로 학습된다. 다중 스케일 학습(Multi-scale Training)이 적용되어 입력 이미지의 짧은 변을 480~800 픽셀 사이로 무작위 조정한다.12

6. 실험 결과의 포괄적 분석 및 경쟁 모델과의 비교

CrossFormer의 진가는 단순한 이미지 분류를 넘어, 위치 정보와 크기 정보가 중요한 조밀한 예측 태스크에서 더욱 명확하게 드러난다.

6.1 ImageNet-1K 이미지 분류

ImageNet 분류 태스크에서 CrossFormer는 동급 경쟁 모델들을 일관되게 상회한다.

모델	파라미터 수	FLOPs	Top-1 Accuracy	비고
ResNet-50	25.6M	4.1G	76.2%	CNN 베이스라인
PVT-Small	24.5M	3.8G	79.8%	피라미드 ViT 초기 모델
Swin-T	29.0M	4.5G	81.3%	윈도우 어텐션 기반
CrossFormer-S	30.7M	4.9G	82.5%	Swin-T 대비 +1.2%
CrossFormer++-S	23.3M	4.9G	83.2%	효율성 및 성능 최고 수준
Swin-B	88.0M	15.4G	83.5%	Base급 모델
CrossFormer-B	52.0M	9.2G	83.4%	더 적은 파라미터로 동급 성능
CrossFormer++-B	52.0M	9.5G	84.5%	Swin-B를 1.0% 상회

위 표에서 볼 수 있듯이, CrossFormer-S는 Swin-T보다 1.2% 높은 정확도를 기록했으며, CrossFormer++-S는 파라미터를 줄이면서도 83.2%라는 놀라운 성능을 보여주었다. 이는 CEL을 통한 다중 스케일 특징 학습이 분류 작업에서도 객체의 주요 특징을 포착하는 데 효과적임을 증명한다.4

6.2 COCO 객체 탐지 (Object Detection)

객체 탐지는 다양한 크기의 객체를 찾아내야 하므로 CrossFormer의 장점이 극대화되는 분야이다.

RetinaNet 프레임워크: CrossFormer-S는 44.2 AP를 기록하여, Swin-T(41.5 AP)와 PVT-Small(40.4 AP)을 크게 앞섰다. 특히 작은 객체(AP_S) 탐지 성능에서의 향상이 두드러진다.11
Mask R-CNN 프레임워크: CrossFormer-B는 47.2 box AP와 42.7 mask AP를 달성했다. 이는 ResNet-101 기반 모델(40.4 box AP) 대비 6.8 포인트나 높은 수치이며, Swin-S 등 동급 모델과 비교해도 우위에 있다. CrossFormer++-B는 여기서 성능을 더욱 높여 47.7 box AP를 기록했다.12

인사이트: 모델의 크기가 커질수록(S $\rightarrow$ B $\rightarrow$ L) CrossFormer와 타 모델 간의 성능 격차가 더 벌어지는 경향이 있다. 이는 CrossFormer의 구조가 모델 용량(Capacity)이 커질수록 복잡한 시각 정보를 해석하는 능력이 비선형적으로 향상됨을 시사한다.4

6.3 ADE20K 시멘틱 세그멘테이션 (Semantic Segmentation)

픽셀 단위의 분류를 수행하는 세그멘테이션에서는 문맥 정보(Context)와 경계(Boundary) 정보가 모두 중요하다.

성능: UPerNet 헤드를 사용했을 때, CrossFormer-S는 47.6 MS IOU(Multi-Scale IOU)를 기록했다. CrossFormer++-S는 50.8 MS IOU를 달성하여, ResNet-101(44.9)은 물론 기존 SOTA 모델들을 압도했다.12
의의: 특히 작은 모델인 CrossFormer-T조차 Twins-SVT-B와 같은 더 큰 모델보다 높은 IOU를 기록했다(CrossFormer-T +1.4% > Twins-SVT-B).4 이는 CrossFormer가 적은 자원으로도 고밀도 특징(Dense Feature)을 매우 효율적으로 추출함을 보여준다.

7. 아블레이션 연구를 통한 구성 요소의 유효성 검증

CrossFormer의 성능 향상이 단순히 모델 크기나 학습 기법 덕분이 아님을 증명하기 위해, 연구진은 철저한 아블레이션(Ablation) 연구를 수행했다.

7.1 CEL의 커널 다양성 영향

CEL에서 단일 커널( $4 \times 4$ )만 사용했을 때와 다중 커널을 사용했을 때를 비교한 결과, 다중 커널 사용 시 성능이 대폭 향상되었다. 특히 커널 크기 조합을 다양하게 가져갈수록 성능이 좋아졌으나, 특정 개수 이상에서는 성능 포화가 관찰되었다. 이는 $4 \times 4$ 부터 $32 \times 32$ 까지의 4개 커널 조합이 효율성과 성능의 최적점임을 시사한다.4

7.2 LSDA의 구성 방식

SDA만 사용했을 경우(Swin과 유사)와 LDA만 사용했을 경우, 그리고 두 가지를 결합했을 경우를 비교했다.

SDA only: 로컬 정보만 학습하여 전역 문맥 부재로 성능 저하.
LDA only: 전역 정보는 파악하나 디테일이 부족하여 성능 저하.
SDA + LDA: 두 가지를 교차 사용했을 때 시너지가 발생하여 가장 높은 성능을 기록했다. 이는 지역적 특징의 강화와 전역적 전파가 상호 보완적임을 증명한다.5

7.3 위치 편향 (Positional Bias) 비교

APE(Absolute Positional Embedding), RPB(Relative), DPB(Dynamic)를 비교한 실험에서, DPB와 RPB는 APE 대비 약 0.4% 높은 정확도를 보였다. DPB는 RPB와 동등한 성능을 보이면서도, 이미지 해상도 변화에 대해 훨씬 유연하게 대처할 수 있다는 점에서 실질적인 우위를 점한다.4

8. CrossFormer의 확장: 의료 및 원격 탐사 분야로의 응용

CrossFormer의 ‘다목적(Versatile)’ 특성은 일반적인 자연 이미지(Natural Images)를 넘어 특수 도메인에서도 강력한 성능을 발휘하고 있다.

8.1 의료 영상 분석 (Medical Imaging)

의료 영상은 병변의 크기가 매우 다양하고(예: 작은 종양 vs 큰 장기), 3차원적 구조를 파악해야 하는 난이도가 높은 분야이다.

4D fMRI 분석: CrossFormer++ 아키텍처는 4차원 시공간 fMRI 데이터 분석 모델인 4DfCF의 기반이 되었다. 시간축과 공간축의 복합적인 스케일 정보를 처리하여 뇌 질환 분류 등에서 기존 모델보다 우수한 정확도를 달성했다.15
다중 모달리티 융합: MRI, CT 등 서로 다른 모달리티를 융합하는 MMAformer와 같은 최신 연구들도 CrossFormer의 다중 스케일 어텐션 개념을 차용하여 병변 분할 성능을 높이고 있다.16

8.2 원격 탐사 (Remote Sensing)

위성 및 항공 이미지는 촬영 고도에 따라 지상 물체의 크기가 극단적으로 변하며, 구름이나 그림자에 의한 가려짐이 빈번하다.

소형 객체 탐지: CrossFormer는 CEL을 통해 작은 객체(차량, 선박 등)의 정보를 보존하고, LDA를 통해 주변 환경 문맥을 파악함으로써 원격 탐사 이미지에서의 소형 객체 탐지율을 크게 개선했다.17
지형 세그멘테이션: 복잡한 도심지나 산림 지역의 경계를 명확하게 구분하는 데 있어 CrossFormer 기반의 모델들이 기존 CNN 기반 모델(DeepLabV3+ 등)보다 뛰어난 성능을 보이고 있다.18

9. 결론 및 향후 전망

본 보고서를 통해 분석한 CrossFormer는 비전 트랜스포머가 직면했던 구조적 한계인 ’스케일 불일치’와 ‘어텐션의 지역성’ 문제를 아키텍처 레벨에서 근본적으로 해결한 획기적인 모델이다.

CEL은 임베딩 단계에서부터 다중 스케일 정보를 명시적으로 융합하여, 모델이 ’무엇을 보아야 하는가’에 대한 입력의 질을 높였다.
LSDA는 어텐션 연산을 효율적으로 분할하여, 계산 비용의 폭발 없이 전역적 문맥과 지역적 디테일을 동시에 학습할 수 있는 길을 열었다.
**CrossFormer++**로의 진화(PGS, ACL 도입)는 심층 신경망의 학습 안정성을 이론적으로 규명하고 기술적으로 해결함으로써 모델의 완성도를 SOTA 수준으로 끌어올렸다.

CrossFormer가 제시한 **‘교차 스케일 어텐션(Cross-scale Attention)’**의 개념은 향후 등장할 차세대 비전 모델 설계에 중요한 이정표가 될 것이다. 단순히 모델의 크기를 키우는 경쟁을 넘어, 데이터가 가진 본질적인 특성(스케일, 공간 관계)을 어떻게 효율적으로 아키텍처에 녹여낼 것인가에 대한 CrossFormer의 해답은, 의료 영상, 자율 주행, 위성 감시 등 고도의 신뢰성과 정밀함이 요구되는 다양한 실세계 애플리케이션에서 그 가치를 지속적으로 증명할 것으로 전망된다.

10. 참고 자료

A Versatile Vision Transformer Based on Cross-scale Attention, https://www.researchgate.net/publication/353654210_CrossFormer_A_Versatile_Vision_Transformer_Based_on_Cross-scale_Attention?_share=1
CROSSFORMER:AVERSATILE VISION TRANSFORMER HINGING …, https://openreview.net/pdf/6d2cbac2997d9b594cd4e0076cfceef1cdfc3319.pdf
A Versatile Vision Transformer Hinging on Cross-Scale Attention …, https://scispace.com/papers/crossformer-a-versatile-vision-transformer-hinging-on-cross-208udhh8ki
CrossFormer: A Versatile Vision Transformer Hinging on Cross …, https://sh-tsang.medium.com/review-crossformer-a-versatile-vision-transformer-hinging-on-cross-scale-attention-ffbcccfa70f7
CrossFormer: A Versatile Vision Transformer Hinging on Cross …, https://openreview.net/forum?id=_PHymLIxuI
Swin Transformer V2: Scaling Up Capacity and Resolution, https://openaccess.thecvf.com/content/CVPR2022/papers/Liu_Swin_Transformer_V2_Scaling_Up_Capacity_and_Resolution_CVPR_2022_paper.pdf
CrossFormer++: A Versatile Vision Transformer Hinging on Cross …, https://www.computer.org/csdl/journal/tp/2024/05/10366193/1T0FeEBbTK8
A Versatile Vision Transformer Hinging on Cross-scale Attention, https://arxiv.org/pdf/2303.06908
A Versatile Vision Transformer Hinging on Cross-scale Attention, https://liner.com/review/crossformer-a-versatile-vision-transformer-hinging-on-crossscale-attention
A Versatile Vision Transformer Based on Cross-scale Attention, https://www.semanticscholar.org/paper/CrossFormer%3A-A-Versatile-Vision-Transformer-Based-Wang-Yao/9f7f81b1c82828a45a52df8f0c6a92636af76c7e
A Versatile Vision Transformer Hinging on Cross-scale Attention, https://arxiv.org/abs/2303.06908
cheerss/CrossFormer: The official code for the paper: https … - GitHub, https://github.com/cheerss/CrossFormer
[21.03] Swin Transformer - DOCSAID, https://docsaid.org/en/papers/vision-transformers/swin-transformer/
arXiv:2102.12122v2 [cs.CV] 11 Aug 2021, https://arxiv.org/pdf/2102.12122
A Versatile Vision Transformer Hinging on Cross-Scale Attention, https://www.researchgate.net/publication/376675261_CrossFormer_A_Versatile_Vision_Transformer_Hinging_on_Cross-Scale_Attention
MMAformer: Multiscale Modality-Aware Transformer for Medical …, https://www.mdpi.com/2079-9292/13/23/4636
Fine-Grained Cross-modal Alignment and Decoding Transformer for …, https://www.bohrium.com/paper-details/cadformer-fine-grained-cross-modal-alignment-and-decoding-transformer-for-referring-remote-sensing-image-segmentation/1114242516653178948-108597
(a) Structure of crossformer for image segmentation. (b) Two…, https://www.researchgate.net/figure/a-Structure-of-crossformer-for-image-segmentation-b-Two-consecutive-crossformer_fig2_379773582